跳转至

论文阅读笔记 — LaMer 用 meta-RL 的跨 episode 信用分配 + 自反思内环上下文适应,在无需梯度更新的情况下诱导 LLM agent 主动探索

元信息

字段 内容
标题 Meta-RL Induces Exploration in Language Agents
arXiv 2512.16848 v2(ICLR 2026)
作者 Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic
代码 未公开
基础模型 Qwen3-4B(non-thinking 模式),另在 Llama3.1-8B-Instruct 验证
训练算法 GiGPO(兼容 PPO / GRPO)

精读建议

本文建议重点阅读: - Section 4(方法):cross-episode return \(G_t^{(n)}\)\(\gamma_{\text{traj}}\) 的设计是全文核心,exploration vs exploitation 的 trade-off 靠这一个参数控制 - Section 5.3(消融研究):揭示 reflection-only memory 优于 trajectory+reflection 组合的反直觉结论 - 相关工作(Section 2–3)和附录实验可速读

一句话总结(TL;DR)

TL;DR

LLM agent 在需要主动探索的多轮任务中表现不佳——标准 RL 训练会让 agent 学到固定策略,缺乏试错适应能力。LaMer 用 meta-RL 框架解决这个问题,核心设计有二:(1) 跨 episode 信用分配:引入 trajectory discount factor \(\gamma_{\text{traj}}\),让早期 episode 的探索动作能因后期 episode 的成功而获得正 advantage;(2) 自反思内环:每个 episode 后生成自然语言反思,作为上下文记忆注入下一 episode,实现 test-time 的 policy adaptation(无梯度更新)。在 Sokoban / MineSweeper / Webshop 上分别以 11%、14%、19% 的绝对优势超过最强 RL baseline,OOD 泛化到更难环境时仍保持显著优势。


1 问题与动机

1.1 现有方法的不足

  • 标准 RL 训练的 LLM agent 在训练中学会固定策略,测试时缺乏主动探索能力——遇到未见过的任务变体时无法从试错中学习
  • Prompt-based 反思(Reflexion / ReAct) 权重不动,adaptation 能力受限于 base model 的涌现行为
  • 外部记忆方法 依赖检索而非内化的自适应能力

1.2 关键的研究缺口

探索 ≠ 利用的简单二分

在多轮交互任务中,agent 需要在 信息收集(探索)奖励最大化(利用) 之间动态切换。标准 RL 把每个 episode 当作独立 rollout,没有机制让 agent 为"获取信息"付出短期代价以换取长期收益。Meta-RL 的多 episode 结构天然适合建模这种 trade-off。

1.3 本文目标

用 meta-RL 的训练范式 + 自反思上下文适应,让 LLM agent 内化探索能力——训练时学会如何在未见过的任务中试探、收集信息、调整策略,测试时无需梯度更新即可适应。


2 方法:LaMer 框架

2.1 核心概念:Trial 与 Episode

LaMer 的训练和推理都以 trial(试验)为基本单位。一个 trial 是同一任务实例上的 \(N\) 个连续 episode 序列。

定义:Trial \(\mathcal{T}\)

一个 trial 是 \(N\) 个 episode 的有序序列:

\[ \mathcal{T} = (\tau^{(0)}, \tau^{(1)}, \dots, \tau^{(N-1)}) \]

其中 \(\tau^{(n)}\) 是第 \(n\) 个 episode 的完整轨迹,由上标 \((n)\) 标识其在 trial 中的位置(\(n=0\) 是第一个 episode)。每个 \(\tau^{(n)} \sim \pi_\theta^{(n)}(\cdot)\),即 agent 在第 \(n\) 个 episode 中使用的策略。

关键约束: - 一个 trial 内的所有 episode 面对的是 同一任务实例(相同的初始状态、相同的环境动态) - 若某个 episode 成功解决任务,trial 提前终止,不再生成后续 episode - 若 episode 失败,agent 从相同初始状态开始下一个 episode,最多 \(N\) 次尝试 - 论文所有实验中 \(N = 3\)

符号约定:上标 \((n)\) 始终表示 episode 索引,下标 \(t\) 表示单个 episode 内的 step 索引。例如 \(r_t^{(n)}\) 表示第 \(n\) 个 episode 中第 \(t\) 步的即时奖励。

与标准 RL 的本质区别:标准 RL 把每个 episode 视为独立的优化单元(episode 之间无依赖);LaMer 把 整个 trial 作为优化单元,episode 之间通过跨 episode 信用分配和上下文记忆显式关联。第 \(n\) 个 episode 的策略 \(\pi_\theta^{(n)}\) 并非独立于前序 episode——它条件化于前序 episode 的历史轨迹和自反思(见 2.4 节)。

2.2 Episode 内 Return:\(g_t^{(n)}\)

首先定义单 episode 内的标准折扣 return,这是后续跨 episode 扩展的基础。

定义:Episode 内 return \(g_t^{(n)}\)

在第 \(n\) 个 episode 中,从第 \(t\) 步开始的折扣累积奖励:

\[ g_t^{(n)} = \sum_{l=t}^{T-1} \gamma_{\text{step}}^{l-t} \cdot r_l^{(n)} \]

符号含义: - \(n\):episode 索引(在 trial 中的编号,\(n = 0, 1, \dots, N-1\)) - \(t\):episode 内的 step 索引(\(t = 0, 1, \dots, T-1\)\(T\) 为 episode 长度) - \(l\):求和哑变量,遍历 \(t\) 之后的所有 step - \(\gamma_{\text{step}} \in [0, 1]\):episode 内折扣因子,控制对未来奖励的重视程度(标准 RL 中的 \(\gamma\)) - \(r_l^{(n)}\):第 \(n\) 个 episode 第 \(l\) 步的即时奖励 - \(g_0^{(n)}\):第 \(n\) 个 episode 的总 return(\(t=0\) 时的值),代表该 episode 的整体表现

这个公式与标准 RL 的 discounted return 完全一致。它的作用是量化单个 episode 内部的动作质量——但 无法表达跨 episode 的信息收集价值。例如,第一个 episode 中的一个探索动作可能本身无收益,但它揭示的环境信息使第二个 episode 成功了——仅靠 \(g_t^{(0)}\) 无法给这个探索动作分配信用。这正是 LaMer 引入 \(G_t^{(n)}\) 的动机。

2.3 Cross-Episode Return:\(G_t^{(n)}\)(核心创新)

定义:Cross-episode return \(G_t^{(n)}\)

在第 \(n\) 个 episode 第 \(t\) 步的跨 episode 折扣 return,是 LaMer 最核心的定义:

\[ G_t^{(n)} = g_t^{(n)} + \sum_{m=n+1}^{N-1} \gamma_{\text{traj}}^{m-n} \cdot g_0^{(m)} \]

结构拆解: - 第一项 \(g_t^{(n)}\):当前 episode 从 \(t\) 步开始的 episode 内 return(与标准 RL 相同) - 第二项 \(\sum_{m=n+1}^{N-1} \gamma_{\text{traj}}^{m-n} \cdot g_0^{(m)}\)跨 episode 传播项——将后续所有 episode 的总 return,以 \(\gamma_{\text{traj}}\) 为折扣因子加权求和 - \(m\):后续 episode 的索引,\(m = n+1, n+2, \dots, N-1\) - \(g_0^{(m)}\):第 \(m\) 个 episode 的总 return(从 step 0 到终端的完整累积奖励) - \(\gamma_{\text{traj}} \in [0, 1]\)trajectory discount factor,跨 episode 折扣因子

\(\gamma_{\text{traj}}\) 的作用:探索—利用的控制旋钮

\(\gamma_{\text{traj}}\) 是全文最关键的单一超参数,它控制早期 episode 能从后续 episode 的成功中获得多少信用:

  • \(\gamma_{\text{traj}} \to 0\):第二项趋近于 0,\(G_t^{(n)} \approx g_t^{(n)}\),退化为标准 RL(只看当前 episode)。Agent 倾向 快速利用 已知策略,不做探索。
  • \(\gamma_{\text{traj}} \to 1\):后续 episode 的 return 以接近等权的方式传回。Agent 愿意在早期 episode 中 付出短期代价来探索,因为探索动作能够通过后期 exploitation 的成功获得正 advantage。
  • 实验默认值 \(\gamma_{\text{traj}} = 0.6\)(MineSweeper 除外,用 0.9),在 Sokoban 和 Webshop 上 \(\gamma_{\text{traj}} = 0.6\) 最优,过大反而降低最终表现。

具体例子:考虑一个 trial 有 \(N=3\) 个 episode,\(\gamma_{\text{traj}} = 0.6\): - 第 0 个 episode 某步 \(t\) 的 return:\(G_t^{(0)} = g_t^{(0)} + 0.6 \cdot g_0^{(1)} + 0.36 \cdot g_0^{(2)}\) - 第 1 个 episode 某步 \(t\) 的 return:\(G_t^{(1)} = g_t^{(1)} + 0.6 \cdot g_0^{(2)}\) - 第 2 个 episode(最后一个):\(G_t^{(2)} = g_t^{(2)}\)(无后续 episode,退化为标准 return)

如果第 0 个 episode 失败了(\(g_0^{(0)} \approx 0\)),但它的探索让第 1 个 episode 成功了(\(g_0^{(1)} = 10\)),则第 0 个 episode 中的每个动作都会通过 \(G_t^{(0)}\) 获得 \(0.6 \times 10 = 6\) 的跨 episode 信用。这就是"探索→获取信息→利用→成功"因果链的数学实现

与 MDP return 的类比:标准 RL 中,\(\gamma\) 让 agent 为远期奖励牺牲即时奖励。LaMer 中,\(\gamma_{\text{traj}}\) 让 agent 为 后续 episode 的成功 牺牲当前 episode 的回报——将"学习过程"本身纳入了优化目标。

2.4 Meta-RL 优化目标

定义:LaMer 的 meta-RL 目标函数 \(J(\theta)\)

\[ J(\theta) = \mathbb{E}_{\mathcal{T} \sim \pi_\theta}\left[\sum_{n=0}^{N-1} \gamma_{\text{traj}}^n \sum_{t=0}^{T-1} \gamma_{\text{step}}^t \cdot r_t^{(n)}\right] = \mathbb{E}_{\mathcal{T} \sim \pi_\theta}\left[G_0^{(0)}\right] \]

等价解读:最大化整个 trial 起始处的 cross-episode return \(G_0^{(0)}\) 的期望。展开看,它同时优化: - 每个 episode 内部的累积奖励(通过 \(\gamma_{\text{step}}^t \cdot r_t^{(n)}\)) - 早期 episode 对后续 episode 成功的贡献(通过 \(\gamma_{\text{traj}}^n\) 的跨 episode 传播)

\(\gamma_{\text{traj}} = 0\) 时,目标退化为 \(\max_\theta \mathbb{E}[\sum_t \gamma_{\text{step}}^t r_t^{(0)}]\)——标准单 episode RL。当 \(\gamma_{\text{traj}} > 0\) 时,agent 被激励在早期 episode 中执行 信息采集动作(即使本身不产生即时奖励),因为它们通过后续 episode 的 return 间接贡献于 \(J(\theta)\)

2.5 Policy Gradient 与 Advantage 估计

LaMer 的框架与现有 policy gradient 算法兼容,只需将 advantage 从标准 return \(g_t^{(n)}\) 替换为 cross-episode return \(G_t^{(n)}\) 来估计。

定义:LaMer 的 Policy Gradient

\[ \nabla_\theta J(\theta) = \mathbb{E}_{\mathcal{T} \sim \pi_\theta}\left[\sum_{n=0}^{N-1} \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t^{(n)} \mid s_t^{(n)}, \mathcal{H}^{(n)}) \cdot A_t^{(n)}\right] \]

符号含义: - \(\pi_\theta(a_t^{(n)} \mid s_t^{(n)}, \mathcal{H}^{(n)})\):agent 在第 \(n\) 个 episode 第 \(t\) 步选择动作 \(a_t^{(n)}\) 的概率,条件化于当前状态 \(s_t^{(n)}\) 和累积历史 \(\mathcal{H}^{(n)}\) - \(\mathcal{H}^{(n)}\):在第 \(n\) 个 episode 开始时可用的全部历史上下文(前序 episode 的轨迹 + 自反思,详见 2.6 节) - \(A_t^{(n)}\):从 cross-episode return \(G_t^{(n)}\) 估计的 advantage 函数(而非从标准 \(g_t^{(n)}\) 估计) - 外层求和 \(\sum_{n}\) 遍历 trial 中的所有 episode,内层求和 \(\sum_{t}\) 遍历 episode 中的所有 step

与标准 PG 的唯一区别:advantage \(A_t^{(n)}\) 的估计来源从 \(g_t^{(n)}\) 变成了 \(G_t^{(n)}\)。这意味着 early-episode actions that enable later success get positive advantage——这正是 meta-RL 探索激励的来源。论文默认使用 GiGPO 作为底层 PG 算法来估计 advantage,但声明 PPO、GRPO、RLOO 等同样可用。

2.6 In-Context Policy Adaptation via Self-Reflection

在每个 episode 结束后,agent 被要求 生成一段自然语言反思,总结失败原因并提出下一 episode 的改进计划。这段反思随后被追加到上下文历史中,影响后续 episode 的决策。

定义:自反思生成与累积

\(n\) 个 episode 结束后的反思生成:

\[ m_{n} \sim \pi_\theta^{\text{refl}}(\cdot \mid \tau^{(n)}, x) \]
  • \(m_n\):第 \(n\) 个 episode 结束后生成的自然语言反思文本
  • \(\pi_\theta^{\text{refl}}\):与动作生成共享同一底层 LLM \(\theta\),通过特定的反思 prompt 模板引导模型输出
  • \(\tau^{(n)}\):刚完成的第 \(n\) 个 episode 的完整轨迹(包含所有状态、动作及其结果)
  • \(x\):任务描述文本

历史累积:在第 \(n\) 个 episode 开始时,可用的上下文历史 \(\mathcal{H}^{(n)}\) 包含:

\[ \mathcal{H}^{(n)} = \{\tau^{(0)}, m_0, \tau^{(1)}, m_1, \dots, \tau^{(n-1)}, m_{n-1}\} \]

即前序所有 episode 的完整轨迹与其对应的反思,按时间顺序拼接。第一个 episode 之前无历史:\(\mathcal{H}^{(0)} = \{x\}\)(仅任务描述)。\(\mathcal{H}^{(n)}\) 作为条件注入策略:

\[ \pi_\theta^{(n)}(\cdot) = \pi_\theta(\cdot \mid \mathcal{H}^{(n)}) \]

反思是训练信号的一部分,不是涌现行为

与 Reflexion 等 prompt-only 方法的关键区别:LaMer 中反思 token 的生成参与 policy gradient 的反向传播。反思质量通过 下一个 episode 的奖励 来间接评估——如果 \(m_n\) 写得好,第 \(n+1\) 个 episode 的 \(g_0^{(n+1)}\) 就会高,进而通过 \(G_t^{(n)}\)\(m_n\) 的生成概率分配正的 advantage。这使模型在训练中学会"写有用的反思"。

Test-time adaptation:推理时不更新任何模型权重。Agent 在完成一个 episode 后生成反思、注入上下文,仅通过上下文的改变来实现策略适应。这意味着 LaMer 的部署成本仅比标准推理多出 生成反思文本的 token 开销,无需任何梯度计算。

2.7 训练流程

LaMer 的训练流程可以概括为以下步骤:

  1. 采样一个 batch 的 task:从任务分布中采样训练任务
  2. 对每个 task 采样一个 trial:顺序生成 \(N\) 个 episode。在每个 episode 内,agent 条件化于当前历史 \(\mathcal{H}^{(n)}\) 产生动作;episode 结束后生成反思 \(m_n\) 并追加到历史中
  3. 计算 cross-episode return:对 trial 中的每个 step,按 \(G_t^{(n)} = g_t^{(n)} + \sum_{m=n+1}^{N-1} \gamma_{\text{traj}}^{m-n} \cdot g_0^{(m)}\) 计算跨 episode return
  4. 估计 advantage:基于 \(G_t^{(n)}\) 估计 \(A_t^{(n)}\)(使用 GiGPO 的 group-based advantage 估计)
  5. Policy gradient 更新:按 \(\nabla_\theta J(\theta)\) 更新模型参数 \(\theta\)

公平性设计:LaMer 使用 group size = 8(每个 trial 含 \(N=3\) 个 episode,共 24 条轨迹 / gradient step),RL baseline 使用 group size = 24(24 条独立轨迹 / gradient step)。两者的总轨迹数相等,确保性能差异来自 meta-RL 结构而非数据量。

当前训练效率:由于 trial 内 episode 必须顺序采样(后续 episode 依赖前序反思),LaMer 的训练时间约为标准 RL 的 2 倍。论文指出可通过异步 rollout 改善,属于工程优化范畴。


3 实验

3.1 实验设置

超参数
基础模型 Qwen3-4B(non-thinking)
\(\gamma_{\text{traj}}\) 0.6(MineSweeper 除外用 0.9)
\(\gamma_{\text{step}}\) 论文未明确报告
\(N\) 3 episodes / trial
Group size(LaMer) 8(等价于 RL 的 24 trajectories)
学习率 Adam \(1 \times 10^{-6}\)
Batch size 16(Sokoban/MineSweeper, 300 epochs)/ 8(Webshop/ALFWorld, 150 epochs)
采样温度 1.0(rollout)/ 0.7(eval)
奖励 成功 \(+10\),失败 \(0\)

评估指标:Pass@\(k\)\(k\) 次尝试中至少一次成功的比例(\(k \in \{1, 2, 3\}\))。在 LaMer 的语义下,这等价于 trial 层面的成功率——一个 trial 的 \(N=3\) 个 episode 中,允许最多 3 次尝试。

环境

环境 类型 关键特性
Sokoban 推箱子,完全可观测 长程规划,避免死锁
MineSweeper 扫雷,部分可观测 逻辑推理,信息收集
Webshop 电商模拟,部分可观测 搜索+理解指令
ALFWorld 文本家务,部分可观测 多步导航(仅用于 OOD)

3.2 主结果(Table 1)

方法 Sokoban p@1 / p@2 / p@3 MineSweeper p@1 / p@2 / p@3 Webshop p@1 / p@2 / p@3
Zero-shot 6.8 / 9.8 / 12.9 4.5 / 6.6 / 8.6 1.4 / 2.1 / 2.3
ReAct 7.2 / 9.6 / 12.5 6.3 / 7.0 / 10.9 3.1 / 4.5 / 4.5
Reflexion 6.4 / 9.8 / 12.1 5.5 / 7.2 / 9.8 2.7 / 3.3 / 3.5
GRPO 22.9 / 26.4 / 27.0 36.3 / 40.0 / 40.4 72.9 / 73.0 / 73.0
GiGPO 41.6 / 43.6 / 44.1 52.0 / 54.9 / 55.1 73.4 / 74.6 / 75.2
LaMer 42.4 / 52.0 / 55.9 44.1 / 66.4 / 74.4 67.8 / 84.4 / 89.1

相对最佳 RL baseline(GiGPO)的 pass@3 增益: - Sokoban:+11.8%(44.1% → 55.9%) - MineSweeper:+19.3%(55.1% → 74.4%) - Webshop:+13.9%(75.2% → 89.1%)

'Slow start, high finish' 模式

LaMer 在 p@1 上不一定最优(MineSweeper 44.1 vs GiGPO 52.0;Webshop 67.8 vs GiGPO 73.4),但 p@1 → p@3 的增幅远超所有 baseline。Sokoban 上 LaMer 从 42.4% → 55.9%(+13.5%),而 GiGPO 仅从 41.6% → 44.1%(+2.5%)。这说明 LaMer 真正在 episode 之间学习,而非简单重复尝试。

3.3 探索多样性(Figure 3)

LaMer 在保持 更高轨迹熵(trajectory diversity) 的同时实现了更高的成功率。Base model 熵最高但成功率低;RL 训练后熵急剧下降(策略坍缩为确定性行为);LaMer 在两者之间取得平衡——保留了探索多样性但不牺牲成功率。

3.4 OOD 泛化

更难环境泛化(Table 2,ALFWorld):

方法 Pick (ID) Look (ID) Clean (ID) Heat (ID) Cool (OOD) Pick2 (OOD)
Prompting 91.9 52.9 48.4 44.8 42.8 21.2
RL 95.5 83.0 67.9 86.6 58.1 36.0
Meta-RL (LaMer) 97.7 100.0 90.2 89.5 81.0 50.2

OOD 任务上 LaMer 领先 RL +22.9%(Cool)+14.2%(Pick2)

Sokoban / MineSweeper 难度缩放:增加箱子数或地雷数时,LaMer 在所有难度级别上持续优于 RL,最困难设置上保持 ~10%(Sokoban)和 ~5%(MineSweeper)的绝对优势。

Llama3.1-8B 验证:LaMer 在 8B 模型上同样有效——Sokoban 20.3% vs GiGPO 6.3%(+14%),MineSweeper 65.6% vs 42.2%(+23.4%)。

3.5 消融研究

3.5.1 \(\gamma_{\text{traj}}\) 的影响(Figure 5)

  • Sokoban / Webshop:\(\gamma_{\text{traj}} = 0.6\) 最优。过大(→ 1.0)反而降低 pass@3,因为过度强调远期探索,弱化了即时利用
  • MineSweeper:\(\gamma_{\text{traj}} = 0.9\) 最优——扫雷的信息收集维度更强,需要更长的信用分配链来支持战略性探索

\(\gamma_{\text{traj}}\) 提供了一个可操作的旋钮来调节探索与利用的平衡,而非仅作为理论上的折扣因子。

3.5.2 跨 episode 记忆形式(Table 3)

记忆内容 Sokoban MineSweeper Webshop
Trajectory-only 34.8 69.5 89.3
Reflection-only 56.4 80.5 92.8
Both(LaMer 默认) 55.9 74.4 89.1

反直觉结论:Reflection-only > Both

同时提供轨迹和反思反而比仅提供反思差——MineSweeper 上差距达 6.1 个百分点。论文解释:反思更简洁、更聚焦于策略指导;原始轨迹包含大量冗余信息,可能分散模型注意力。这一结果暗示 反思质量比信息量更重要。反思从 Trajectory-only 提升到 Reflection-only 的增益在三个环境上分别为:Sokoban +21.6%、MineSweeper +11.0%、Webshop +3.5%。

3.5.3 跨 episode 记忆对 RL 的作用(Appendix D.2)

给 GiGPO 也加上跨 episode 记忆(将前序轨迹拼入上下文):

方法 Sokoban MineSweeper Webshop
GiGPO(无记忆) 44.1 55.1 75.2
GiGPO(有记忆) 47.9(+3.8) 60.4(+5.3) 74.0(−1.2)
LaMer(反思+记忆) 55.9 74.4 89.1

仅加记忆对 RL 的帮助有限(Sokoban +3.8%, MineSweeper +5.3%)甚至有害(Webshop −1.2%),说明 LaMer 的增益 主要来自 cross-episode 信用分配(\(G_t^{(n)}\))这个训练范式,而非简单的上下文信息拼接。


4 评价

4.1 论文自身主张的贡献

作者在论文中明确提出的主要贡献:

  1. 提出了 LaMer——一个将 meta-RL 引入 LLM agent 训练的框架,通过在 trial 内引入跨 episode 信用分配来诱导探索行为
  2. 证明了自反思可以作为一种可训练的 in-context policy adaptation 机制,使 agent 在 test-time 无需梯度更新即可从试错中改进
  3. 在 Sokoban、MineSweeper、Webshop 三个环境上验证了 LaMer 显著优于现有 RL 方法,并展示了更好的 OOD 泛化能力
  4. 通过消融实验揭示了 \(\gamma_{\text{traj}}\) 作为探索/利用控制旋钮的作用,以及 reflection-only 记忆优于 trajectory+reflection 组合的反直觉结论

4.2 论文自身承认的局限性

作者在讨论部分(Section 6)明确列出以下局限:

  • 通用性与组合性:作者指出 LaMer 是一个通用框架,"combining it with other RL algorithms or self-reflection frameworks could further enhance performance"——承认当前实现可能与更强的 RL 算法或更优的反思设计组合后产生更大收益
  • 训练效率:"sampling episodes sequentially within a trial leads to longer training time than standard RL methods"——当前实现约 2 倍训练时间,作者建议 future work 可在异步 rollout 或改进调度上优化
  • 泛化范围:作者明确指出当前 OOD 泛化限于"harder environments of the same kind or relatively similar domains",并认为"developing generalist agents that can adapt to completely novel environments"是未来的重要方向

4.3 本文方法在论文自身的定位

论文在讨论中将 LaMer 定位为一种 principled approach to induce exploration——与 prompt-based 反思和记忆增强方法不同,LaMer 通过 meta-RL 的训练信号将探索能力内化到模型参数中。作者强调该方法 not only improves performance 而且 endows agents with the ability to continue improving at test time through in-context adaptation。

在结论中,作者将 LaMer 定位为 bridging meta-RL with language agents,并认为这是使 LLM agent 能在更开放、更非平稳的环境中工作的关键一步。


5 我的思考

5.1 与 MAGE 的对比

维度 LaMer(本文) MAGE(2603.03680)
问题焦点 单智能体 探索——如何让 agent 主动试错 多智能体 策略性利用——如何识别并利用对手弱点
Reward 设计 Cumulative cross-episode return \(G_t^{(n)}\)(包含后续 episode 完整 return) Differential return \(\mathcal{R}_n = R(\tau_n) - R(\tau_{n-1})\)(只看 episode 间进步量)
多智能体 未涉及 完整 PBT + agent-specific advantage normalization
共享组件 \(N=3\) episodes / trial、自反思内环、与 policy gradient 算法兼容
模型与算法 Qwen3-4B non-thinking + GiGPO Qwen3-4B thinking + GiGPO
ICLR 2026

两篇工作几乎同期出现在 ICLR 2026,共享 meta-RL + 多 episode + 自反思的核心框架,但侧重点形成互补——LaMer 解决"学会探索",MAGE 解决"学会利用对手"。一个自然的下一步是将 LaMer 的跨 episode 信用分配与 MAGE 的多智能体设计结合。

5.2 值得进一步关注的问题

  • \(\gamma_{\text{traj}}\) 的最优值与任务信息结构的关系:MineSweeper(部分可观测,强信息收集)偏好 0.9,Sokoban(完全可观测)偏好 0.6。是否存在系统的原则来根据任务特性预设 \(\gamma_{\text{traj}}\)
  • Reflection-only > Both 的结论是否在所有 meta-RL for LLM 任务上成立?反思的简洁性带来增益,但在需要精确记忆细节的任务上(如多步逻辑推理),轨迹信息可能不可或缺
  • 训练慢 2 倍是当前部署的显著瓶颈——异步 rollout 方案的具体设计与效率提升幅度值得关注